林达华:以原创开源体系,推动大模型落地变革
以下Q为记者提问,A为林达华教授回答。
林达华
上海AI实验室领军科学家,香港中文⼤学信息⼯程系副教授,⾹港中文大学交叉学科人工智能研究所所长,于2012年在美国麻省理⼯学院获得计算机科学博士学位;研究领域涵盖计算机视觉、深度学习、通用大模型等;在人工智能领域顶级会议与期刊发表逾200篇论⽂,引用逾31000次;曾指导团队参加计算机视觉领域的主要国际竞赛并多次夺冠;发起的OpenMMLab已成为深度学习时代最具影响力的视觉算法开源体系;多次担任主要国际会议的领域主席以及主要国际期刊编委。大模型的发展
将推动生产力变革Q
ChatGPT大火之后,大模型在中国也是遍地开花。大模型能“火”多久?如何看待大模型的真正价值?
Q
未来,大语言模型的应用方向会有哪些?
Q
目前国内外出现了不少大模型,甚至有“百模大战”的说法。对此你有什么看法和建议?
A: 做大模型或基础模型消耗资源很大,而且最后市场化和商业化的风险也存在很多不明朗的地方,所以如果是有市场压力的情况下,我的建议是先把价值闭环摸清楚,可以先尝试从这个开源的基础模型出发,先去构建整体的价值闭环,先把商业形态价值点先搞清楚了之后,再去回来去看整个闭环哪里还存在技术上的短板,这样就能更有针对性的去投入技术研发的力量。任何一项技术都需要在实际应用中产生价值。
Q
大模型的训练过程是否非常复杂,研究和开发是否成本很高?
Q
书生·浦语的开源是免费的吗?
A: 7B模型做到了“全面开源,免费商用”,目的就是要把大模型的门槛打下来。我们关注的是能否先把生态构建起来。当有一个活跃生态的时候,各界是愿意在这里面继续投入的。如果整个行业不能发展起来,个体机构或企业也很难持续,所以现在最重要的先把整体生态做起来。
Q
除了对书生·浦语7B模型开源,未来还会开放更高阶版的大模型吗?
A: 开源的工作是逐步进行的,我们首先尝试把书生·浦语7B模型开源,因为我们观察到7B模型已经具备了较强的能力,它在垂直领域微调适配后其实已经可以解决很多实际应用中的问题。在7B开源后,我们会逐渐探索怎么样去运营或构建一个围绕大模型的开源社区,它和基于代码或者算法的开源是有很大区别的。随着经验积累不断完善,未来会有计划开源更高量级的大模型。Q
Q
书生·浦语算是学霸吗?以它目前的水平参加高考,能考上985、211高校吗?
A: “书生·浦语”在知识型的题目上表现比较突出,反映出它对知识的掌握是较全面的,准确性也比较高,对浅层次推理也有良好的表现;接下来,我们需要进一步突破它的复杂推理能力,比如能做像高考数学最后的两道大题这样的复杂题目。
大家对大模型的成长还需要保持一定的耐心。从目前来看,它们如果正常参加高考,还不能考上985、211高校,除非我们使用高考题型,对它进行大量的考试强化突击,而这并不是我们的目标。正如前面说到的,我们更关注的是基座模型的均衡能力。
基座模型的成长速度非常快,未来要达到985、211分数线也并非难事。当前更应注重的还是大模型基础能力培育,而不能拔苗助长,我们会循序渐进,一步一个脚印向前走。
Q
“书生·浦语”这样的中文语言大模型,在训练过程中需要突破哪些难点?团队如何去实现核心突破?
A: 大模型尤其是基座模型的研发,最核心的挑战是试错成本非常高。这个领域在技术分享上其实是非常保守的。OpenAI和Google在它们最新的技术报告中对于技术的描述都非常简略。虽然原理上大家都理解,但是大量复杂的技术细节只能依靠自身探索和积累,没有捷径。而积累这些技术是需要大量实验试错的,一个千亿参数模型在千卡集群上过完1万亿token数据就需要超过一个月,成本非常高。因此每次确定一个实验方案都是很谨慎的基于全盘多因素考量的决策过程。
具体到不同技术方面:在数据层面、系统层面,从预训练阶段,到预训练结束后的微调阶段,都有不同的难点。
首先是数据层面,正如前面说到,很多人可能认为中文的语料积累不如英文的丰富,其实这并不是根本性问题。因为在语言模型的世界里,不同语言表达出来的基础知识是相通的,不同语言只是不同的表达形式。因此,在语言大模型中,只要把语言能力补充上去,无论基于哪种语言学习出来的知识是可以进行跨语言转化的。更重要的是语料的质量,尤其要当这个语料规模非常庞大,达到万亿级时,如何保证所有语料的高质量,这是一个关键的挑战。
其次,到了训练阶段有两重挑战:第一,需要用数千个GPU花几个星期联合训练一个模型,如何让所有GPU高效协同,并且能够持续稳定进行训练,尤其是在遇到硬件故障、网络故障时仍然能够高效运行,所以在系统层面这是很大的一个挑战。第二,由于每一次训练的周期很长,这就需要一套方法论来提高整体高效。我们这个过程中总结摸索出来的方法是,可以先在相对小规模的参数,例如几十亿参数的规模上,进行大量的技术方法和技术设定的验证,然后进行技术选型,最后再融入大模型训练的主线。另外,主模型的训练也会花很长时间,我们会把整个训练分解成若干阶段,每个阶段进行相对全面的评测,就像学生的日常小测验一样,根据评测和评估的结果,决定下一阶段攻关的方向,调整下一阶段的训练配置,确保在长达一两个月的周期中时刻掌握好“方向盘”,保证整个训练能得到比较理想的结果。
最后,到了模型微调阶段,要做的事情很多,一方面要遵循指令,产生预期的对话,另外,要让它遵守价值观、道德边界;因此,平衡不同的目标诉求,使得它安全、有效,这也是一个挑战。
最后,整个工作是个大规模的系统工程,我们有不同团队针对不同问题进行攻关,最后需要把所有团队的努力整合在一起,才能形成成果。这样一个系统工程的高效组织,也大模型训练和研发很重要的一个挑战。